#ranking de modelos

CoEval: ranking de modelos sin datos ni benchmarks confiables

Descubre CoEval: un framework que evalúa y rankea modelos de lenguaje sin necesidad de datos etiquetados ni benchmarks fiables. Resultados limpios y por solo $5.89.

2026-06-03 · 2 min

PieArena: Ranking y Perfil de Agentes de Lenguaje en Negociaciones Realistas

PieArena mide la capacidad de negociación de los LLMs en escenarios reales. GPT-5 iguala o supera a humanos en este benchmark.

2026-06-03 · 2 min